50 research outputs found

    Análisis y diseño de técnicas de preprocesamiento de instancias escalables para problemas no balanceados en Big Data : Aplicaciones en situaciones de emergencias humanitarias

    Get PDF
    En la actual era de la información, el análisis asociado al escenario de Big Data permite la extracción de conocimiento de una vasta fuente de información. Una de las cuestiones de interés para extraer y explotar el valor de los datos, es adaptar y simplificar los datos en crudo que son entrada para el algoritmo de aprendizaje, lo que se conoce como "Smart Data". A pesar de la importancia de lo anterior, y su aplicación en problemas estándar, el análisis de la calidad de los datos de los conjuntos Big Data es casi un territorio inexplorado. En este sentido, un estudio exhaustivo de las características de los datos, junto con la aplicación de las técnicas de preprocesamiento adecuadas, se ha convertido en un paso obligatorio para todos los proyectos de Ciencia de Datos, tanto en la industria como en el mundo académico, y en especial aquellos asociados con análisis en Big Data. En consecuencia, el eje principal de investigación de la presente tesis abordó el preprocesamiento distribuido y escalable de conjuntos Big Data de clasificación binaria, con el fin de obtener el ya citado Smart Data. Teniendo en cuenta el impacto que tienen las características intrínsecas de los datos en el rendimiento de los modelos de aprendizaje, así como la escasa cantidad de soluciones existentes para escenarios Big Data, en esta memoria de tesis se presentaron tres propuestas para la identificación y/o el tratamiento de las siguientes características: (a) datos no balanceados; (b) redundancia; (c) alta dimensionalidad; y (d) solapamiento. Respecto a los datos no balanceados, se presentó SMOTE-BD, un SMOTE para Big Data basado en un estudio sobre las particularidades necesarias para que su diseño sea totalmente escalable, y que además su comportamiento se ajuste lo más fielmente posible a la técnica secuencial del estado del arte (tan popular en escenarios Small Data). Asimismo, se introdujo una variante de SMOTE-BD, denominada SMOTE-MR, que sigue un diseño tal que procesa los datos localmente en cada nodo. Dado que no existe una única técnica que siempre sea la que genere los mejores resultados, cuando se tiene que equilibrar las clases de un problema, se suelen aplicar una serie de ellas. Es por esto que nuestro aporte toma mayor relevancia puesto que, hasta el momento de su desarrollo, sólo estaban disponibles las soluciones triviales basadas en muestreo aleatorio. En relación a la redundancia y a la alta dimensionalidad de los datos, se presentó FDR2-BD, una metodología escalable para reducir (o condensar) un conjunto Big Data de manera dual vertical y horizontal, es decir, reducción de atributos y de instancias, con la premisa de mantener la calidad predictiva respecto de los datos originales. La propuesta se basa en un esquema de validación cruzada donde se realiza un proceso de hiperparametrización que, además, soporta el manejo de conjuntos de datos no balanceados. FDR2-BD permite conocer si un conjunto de datos dado es reducible manteniendo el poder predictivo de los datos originales dentro de un umbral que puede ser establecido por la persona experta en el dominio del problema. Por consiguiente, nuestra propuesta informa cuáles son los atributos de los datos de mayor importancia y cuál es el porcentaje de reducción uniforme de instancias que se puede llevar a cabo. Los resultados mostraron la fortaleza de FDR2-BD obteniendo valores de reducción muy elevados para la mayoría de los conjuntos de datos estudiados, tanto en lo que respecta a la dimensionalidad como a los porcentajes de reducción de instancias propuestos. En términos concretos, se alcanzó alrededor del 70 % de reducción de las características y 98 % de reducción de las instancias, para un umbral de pérdida predictiva máxima aceptada del 1 % del cual, en algunos casos, la calidad predictiva se mantuvo igual a la del conjunto original. Esta información condensada provee la ventaja de poder ser usada en infraestructuras más sencillas que las dedicadas para el procesamiento de Big Data, además de habilitar su uso con técnicas de explicabilidad/interpretabilidad como LIME o SHAP, cuya complejidad computacional es al menos O(n2 x d), con n y d número de instancias y variables respectivamente. En cuanto al solapamiento, se presentó GridOverlap-BD, una metodología para la caracterización escalable de problemas Big Data de clasificación. La propuesta se apoya en el particionamiento del espacio de características basado en rejilla. GridOverlap-BD permite identificar o caracterizar las áreas del problema en dos tipologías: zonas puras y solapadas. Además, se introdujo una métrica de complejidad derivada de aplicar GridOverlap-BD, con foco en cuantificar el solapamiento presente en los datos. De la experimentación realizada, se observó que tanto la caracterización de las zonas de un problema como la cuantificación del grado de solapamiento se llevaron a cabo de manera efectiva para los conjuntos de datos del entorno experimental. Ello implica una aproximación pionera escalable y totalmente agnóstica (independiente del modelo) para la caracterización de las instancias de un problema Big Data, y la estimación de su complejidad de cara al análisis de los resultados posteriores del modelado. Todas las propuestas fueron desarrolladas utilizando el framework Apache Spark, dado que se ha convertido en un estándar "de facto" para el procesamiento de Big Data. Además, las implementaciones se encuentran disponibles en repositorios de público acceso, en aras de facilitar la reproducibilidad de los resultados, así como la posible extensión de las aproximaciones diseñadas en la presente tesis doctoral para cualquier investigador interesado.Tesis en cotutela con la Universidad de Granada (España).Facultad de Informátic

    Analysis and design of scalable pre-processing techniques of instances for imbalanced Big Data problems : Applications in humanitarian emergencies situations

    Get PDF
    The enormous volume of data from different sources, really varied in its typology, generated and processed at great speed, is known as Big Data. The importance of data lies in extracting knowledge from it. Hence, being able to take advantage of a large amount of data allows us to explore and better understand the problems, providing a priori higher quality solutions. To do this, applying Machine Learning for the generation of models is essential, as well as Smart Data so that these models reflect reality and support decision-making. However, it must be noted that the Machine Learning techniques that until now have offered good results are not always able to handle Big Data due to scalability issues. For this reason, they need to be adapted to work in distributed environments, or new techniques or strategies need to be created to deal with this new scenario. In addition, datasets can usually have certain undesired characteristics or complexities that interfere with the effectiveness of the knowledge extraction process, so they must be preprocessed due to the fact that most learning models assume that the data are free of those characteristics. Therefore, and since there are few scalable solutions capable of handling Big Data related to this topic, this thesis addresses the distributed and scalable pre-processing of Big Data sets, in order to obtain good quality data, known as Smart Data. Particularly, it focuses on classification problems, and on addressing the following characteristics: (a) imbalanced data; (b) redundancy; (c) high dimensionality; and (d) overlapping.Resumen de la tesis defendida por el autor en mayo de 2022 en la UNLP.Facultad de Informátic

    Some stylized facts of the Bitcoin market

    Get PDF
    In recent years a new type of tradable assets appeared, generically known as cryptocurrencies. Among them, the most widespread is Bitcoin. Given its novelty, this paper investigates some statistical properties of the Bitcoin market. This study compares Bitcoin and standard currencies dynamics and focuses on the analysis of returns at different time scales. We test the presence of long memory in return time series from 2011 to 2017, using transaction data from one Bitcoin platform. We compute the Hurst exponent by means of the Detrended Fluctuation Analysis method, using a sliding window in order to measure long range dependence. We detect that Hurst exponents changes significantly during the first years of existence of Bitcoin, tending to stabilize in recent times. Additionally, multiscale analysis shows a similar behavior of the Hurst exponent, implying a self-similar process.Fil: Fernández, Aurelio. Universitat Rovira I Virgili; España. Consejo Nacional de Investigaciones Científicas y Técnicas; ArgentinaFil: Basgall, María José. Universidad Nacional de la Plata. Facultad de Informatica. Instituto de Investigación En Informatica Lidi; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas; ArgentinaFil: Hasperué, Waldo. Universidad Nacional de la Plata. Facultad de Informatica. Instituto de Investigación En Informatica Lidi; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas; ArgentinaFil: Naiouf, Ricardo Marcelo. Universidad Nacional de la Plata. Facultad de Informatica. Instituto de Investigación En Informatica Lidi; Argentin

    Some stylized facts of the Bitcoin market

    Get PDF
    In recent years a new type of tradable assets appeared, generically known as cryptocurrencies. Among them, the most widespread is Bitcoin. Given its novelty, this paper investigates some statistical properties of the Bitcoin market. This study compares Bitcoin and standard currencies dynamics and focuses on the analysis of returns at different time scales. We test the presence of long memory in return time series from 2011 to 2017, using transaction data from one Bitcoin platform. We compute the Hurst exponent by means of the Detrended Fluctuation Analysis method, using a sliding window in order to measure long range dependence. We detect that Hurst exponents changes significantly during the first years of existence of Bitcoin, tending to stabilize in recent times. Additionally, multiscale analysis shows a similar behavior of the Hurst exponent, implying a self-similar process.Comment: 17 pages, 6 figures. arXiv admin note: text overlap with arXiv:1605.0670

    Data stream treatment using sliding windows with MapReduce

    Get PDF
    Knowledge Discovery in Databases (KDD) techniques present limitations when the volume of data to process is very large. Any KDD algorithm needs to do several iterations on the complete set of data in order to carry out its work. For continuous data stream processing it is necessary to store part of it in a temporal window. In this paper, we present a technique that uses the size of the temporal window in a dynamic way, based on the frequency of the data arrival and the response time of the KDD task. The obtained results show that this technique reaches a great size window where each example of the stream is used in more than one iteration of the KDD task.Facultad de Informátic

    Data stream treatment using sliding windows with MapReduce

    Get PDF
    Knowledge Discovery in Databases (KDD) techniques present limitations when the volume of data to process is very large. Any KDD algorithm needs to do several iterations on the complete set of data in order to carry out its work. For continuous data stream processing it is necessary to store part of it in a temporal window. In this paper, we present a technique that uses the size of the temporal window in a dynamic way, based on the frequency of the data arrival and the response time of the KDD task. The obtained results show that this technique reaches a great size window where each example of the stream is used in more than one iteration of the KDD task.Facultad de Informátic

    FDR2-BD: A fast data reduction recommendation tool for tabular big data classification problems

    Get PDF
    In this paper, a methodological data condensation approach for reducing tabular big datasets in classification problems is presented, named FDR2-BD. The key of our proposal is to analyze data in a dual way (vertical and horizontal), so as to provide a smart combination between feature selection to generate dense clusters of data and uniform sampling reduction to keep only a few representative samples from each problem area. Its main advantage is allowing the model’s predictive quality to be kept in a range determined by a user’s threshold. Its robustness is built on a hyper-parametrization process, in which all data are taken into consideration by following a k-fold procedure. Another significant capability is being fast and scalable by using fully optimized parallel operations provided by Apache Spark. An extensive experimental study is performed over 25 big datasets with different characteristics. In most cases, the obtained reduction percentages are above 95%, thus outperforming state-of-the-art solutions such as FCNN_MR that barely reach 70%. The most promising outcome is maintaining the representativeness of the original data information, with quality prediction values around 1% of the baseline.Fil: Basgall, María José. Universidad de Granada; España. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; ArgentinaFil: Naiouf, Ricardo Marcelo. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; ArgentinaFil: Fernández, Alberto. Universidad de Granada; Españ

    Some stylized facts of the Bitcoin market

    Get PDF
    In recent years a new type of tradable assets appeared, generically known as cryptocurrencies. Among them, the most widespread is Bitcoin. Given its novelty, this paper investigates some statistical properties of the Bitcoin market. This study compares Bitcoin and standard currencies dynamics and focuses on the analysis of returns at different time scales. We test the presence of long memory in return time series from 2011 to 2017, using transaction data from one Bitcoin platform. We compute the Hurst exponent by means of the Detrended Fluctuation Analysis method, using a sliding window in order to measure long range dependence. We detect that Hurst exponents changes significantly during the first years of existence of Bitcoin, tending to stabilize in recent times. Additionally, multiscale analysis shows a similar behavior of the Hurst exponent, implying a self-similar process.Instituto de Investigación en Informátic

    Towards Smart Data Technologies for Big Data Analytics

    Get PDF
    Currently the publicly available datasets for Big Data Ana-lytics are of different qualities, and obtaining the expected behavior from the Machine Learning algorithms is crucial. Furthermore, since working with a huge amount of data is usually a time-demanding task, tohave high quality data is required. Smart Data refers to the process of transforming Big Data into clean and reliable data, and this can be accomplished by converting them, reducing unnecessary volume of data or applying some preprocessing techniques with the aim of improve their quality, and still to obtain trustworthy results. We present those properties that affect the quality of data. Also, the available proposals to analyze the quality of huge amount of data and to cope with low quality datasets in an scalable way, are commented. Furthermore, the need for a methodology towards Smart Data is highlighted.Instituto de Investigación en InformáticaInstituto de Investigación en Informátic

    An analysis of local and global solutions to address Big Data imbalanced classification: a case study with SMOTE preprocessing

    Get PDF
    Addressing the huge amount of data continuously generated is an important challenge in the Machine Learning field. The need to adapt the traditional techniques or create new ones is evident. To do so, distributed technologies have to be used to deal with the significant scalability constraints due to the Big Data context. In many Big Data applications for classification, there are some classes that are highly underrepresented, leading to what is known as the imbalanced classification problem. In this scenario, learning algorithms are often biased towards the majority classes, treating minority ones as outliers or noise. Consequently, preprocessing techniques to balance the class distribution were developed. This can be achieved by suppressing majority instances (undersampling) or by creating minority examples (oversampling). Regarding the oversampling methods, one of the most widespread is the SMOTE algorithm, which creates artificial examples according to the neighborhood of each minority class instance. In this work, our objective is to analyze the SMOTE behavior in Big Data as a function of some key aspects such as the oversampling degree, the neighborhood value and, specially, the type of distributed design (local vs. global).Instituto de Investigación en Informátic
    corecore